Alignement texte-image sans apprentissage pour les manuscrits médiévaux

نویسندگان

  • Yann Leydier
  • Véronique Eglin
  • Stéphane Bres
  • Dominique Stutzmann
چکیده

RÉSUMÉ. Dans cet article, nous décrivons une nouvelle approche pour l’alignement texte-image des documents du moyen-âge. La méthode est dédiée à l’alignement au niveau mot, sans segmentation ni apprentissage. L’alignement mot à mot est basé sur une distance d’édition appliquée à des signatures extraites à la fois à partir des chaı̂nes de caractères Unicode et à partir des images. Les résultats sont évalués sur la “Queste del saint Graal” (XIIIème s.) par des paléographes grâce à une interface de validation intuitive qui permet une correction interactive très rapide. Le gain de temps résultant de l’absence d’une phase d’apprentissage permet d’apporter plus d’attention à l’intégration des différentes spécificités et des variations des écritures du moyen-âge (abréviations, allographes. . .).

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Extraction de formules chimiques dans des documents manuscrits composites

RÉSUMÉ. Nous abordons dans ces travaux, le problème de la segmentation de documents de cahiers de la chimie en zones homogènes. Les documents à traiter sont manuscrits sans contraintes composés de zones de textes, de tableaux et de graphiques, représentant l’expression graphique de l’expérience réalisée. L’objectif de ce premier travail est d’extraire, dans chaque document, le bloc contenant le...

متن کامل

Exploitation de l'échelle d'écriture pour améliorer la reconnaissance automatique des textes manuscrits arabe

RÉSUMÉ. Les documents manuscrits arabes présentent des défis spécifiques pour la reconnaissance du fait de la nature de l'écriture cursive et d'autres facteurs, comme la taille de l'écriture. Une des plus grandes bases étiquetées des documents manuscrits arabes, la base de données NIST­OpenHaRT inclut de grandes variabilités dans la taille du texte inter et intra mots et lignes. Nous proposons ...

متن کامل

Un modèle neuro markovien profond pour l'extraction de séquences dans des documents manuscrits

RÉSUMÉ. Dans cet article, nous proposons un système d’extraction de mots clés dans des documents manuscrits. Notre approche est basée sur la reconnaissance des lignes de texte à l’aide d’un modèle HMM capable de rejeter les mots n’appartenant pas à un lexique prédéfini. Afin d’être plus discriminant, nous avons remplacé les mélanges de gaussiennes des HMM par un réseau de neurones profond pour ...

متن کامل

Incrémentation lexicale dans les textes : une auto-organisation (Lexical Incrementation within Texts: a Self-Organization) [in French]

RESUME Nous proposons une étude dynamique du lexique, en décrivant la manière dont il s’organise progressivement du début à la fin d’un texte. Pour ce faire, nous nous focalisons sur la co-occurrence généralisée, en formant un graphe qui représente tous les lemmes du texte et synthétise leurs relations mutuelles de co-occurrence. L’étude d’un corpus de 40 textes montre que ces relations évoluen...

متن کامل

Apprentissage supervisé pour la catégorisation de documents manuscrits en-ligne

RÉSUMÉ. Cet article s’intéresse à la problématique de la catégorisation automatique de documents manuscrits en-ligne et plus particulièrement à l’impact de la reconnaissance de l’écriture dans un processus de catégorisation utilisant des méthodes d’apprentissage automatique. Nous comparons les performances obtenues avec des documents issus d’un système de reconnaissance de l’écriture en-ligne e...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2016